IGenBench: Evaluando la Fiabilidad en Generación de Infografías
Descubre IGenBench, el primer benchmark que evalúa la fiabilidad de las infografías generadas por IA. Solo el 49% pasan la prueba.
Descubre IGenBench, el primer benchmark que evalúa la fiabilidad de las infografías generadas por IA. Solo el 49% pasan la prueba.
RadOT-Eval: framework auditable que usa transporte de evidencia estructurada para evaluar informes radiológicos, detectando errores clínicos con alta precisión.
Descubre cómo el marco GAMBLe analiza sistemas de investigación con IA, revelando que combinaciones adecuadas mejoran rendimiento hasta 67% y eficiencia 39x.
Descubre cómo el sesgo de prototipicalidad engaña a las métricas de modelos texto-imagen. Conoce PROTOBIAS, el benchmark que detecta fallos semánticos.
Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.
WebIGBench evalúa MLLMs en generar código de páginas web con interacciones complejas. Descubre los resultados y límites actuales. ¡Lee más!
Descubre cómo SortingHat, un asistente digital con IA, transforma la educación en sistemas operativos con aprendizaje personalizado y evaluación automática.
TrustLDM revela vulnerabilidades en modelos de difusión de lenguaje. Seguridad, privacidad y equidad analizadas.
SPM-Bench: Benchmark automatizado que evalúa LLMs en microscopía de sonda. Descubre su pipeline AGS y la métrica SIP-F1 que revela la personalidad de la IA.
REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.